Диплом

1.Подготовка данных
2.EDA
3.Проверка гипотез
4.Оценка возможности классификации
5.Классификация
6.Анализ новой классификации пользователей
7.Модель классификации пользователей
8.Общие выводы и рекомендации

Постановка задачи

Как и любой бизнес, компания «Мегафон» хочет повысить удовлетворённость своих клиентов качеством услуг. Это важная задача для удержания пользователей — как давних, так и недавно привлечённых. Ведь затраты на маркетинг и продвижение не оправдаются, если клиент уйдёт из-за низкого качества связи. Однако в реальном мире ресурсы всегда ограничены, и в единицу времени технический отдел может решить конечное количество задач.
Чтобы делать это наиболее эффективно, важно определить, какие технические показатели качества связи сильнее всего влияют на удовлетворённость клиентов, и в первую очередь направить ресурсы на работу с ними. Для этого «Мегафон» провёл опрос своих клиентов, предложив им оценить уровень удовлетворённости качеством связи. По каждому клиенту, прошедшему опрос, были собраны технические показатели.
Подготовьте исследование для компании «Мегафон» и проанализируйте, как зависит (и зависит ли) оценка, которую ставит клиент в опросе, от технических показателей, которые были собраны.


Более подробно о проведённом опросе:

В ходе опроса компания «Мегафон» предложила своим клиентам оценить уровень удовлетворённости качеством связи по десятибалльной шкале (где 10 — это «отлично», а 1 — «ужасно»). Если клиент оценивал качество связи на 9 или 10 баллов, опрос заканчивался. Если клиент ставил оценку ниже 9, задавался второй вопрос — о причинах неудовлетворённости качеством связи с предоставленными пронумерованными вариантами ответа. Ответ можно было дать в свободном формате или перечислить номера ответов через запятую. Ниже вы можете ознакомиться с инфографикой по структуре опроса.

1.Подготовка данных

Top

Посмотрим на наименования и типы данных

Проверим наличие пропусков

Удалим строки с отсутствующими ответами на первый вопрос (Q1).
Отсутствующие ответы на второй вопрос (Q2) заполним нулями и получим данные без пропусков.

Посмотрим на уникальный характер данных

ВЫВОД: Категориальных переменных кроме ответов на вопросы не выявлено

Для дальнейшего удобства при работе с переменных создадим списки:

Созданные с помощью этих списков словари позволят менять имена данных в любом направлении.

Переименуем переменные по схеме 1-2 (на короткие имена)

Посмотрим уникальные ответы пользователей на первый вопрос.

В ответах присутсвуют варианты, которые ясны по содержанию, но неправильные по форме. Такие ответы можно правильно классифицировать. Также существуют ответы, которые не имеют четкой классификации. Такие данные необходимо выделить для дальнейшей обработки или удаления.

Обработка первого вопроса (Q1)

Получим и расшифруем ответы первого вопроса

Теперь ответы имеют два логических признака:

Проведем разбор каждого сочетания признаков для получения результирующего ответа со следующими значениями:

Ответы типа : clear = 0, positiv = 0

Получим форму словаря, с помощью которой будем вносить коррективы при уточнении ответов.

Вносимые корректировки по параметру "степени удовлетворения" (Q1_res)

Вносимые корректировки по параметру "качество связи" (Q1_cat)

Результат с корректировками

Ответы типа : clear = 0, positiv = 1

Получим форму словаря, с помощью которой будем вносить коррективы при уточнении ответов.

Вносимые корректировки по параметру "степени удовлетворения" (Q1_res)

Вносимые корректировки по параметру "качество связи" (Q1_cat)

Результат с корректировками

Ответы типа : clear = 1

Получим форму словаря, с помощью которой будем вносить коррективы при уточнении ответов.

Вносимые корректировки по параметру "степени удовлетворения" (Q1_res)

Вносимые корректировки по параметру "качество связи" (Q1_cat)

Результат с корректировками

Сохраним результаты корректировок в общую таблицу с параметрами связи

Обработка второго вопроса (Q2)

Получим и расшифруем ответы второго вопроса

Посмотрим ошибки на возможные корректировки

Получим форму словаря с помощью, которой будем вносить коррективы при уточнении ответов.

Вносимые корректировки по параметру "корректные ответы" (corr_lst)

Результат с корректировками

Сохраним результаты корректировок в общую таблицу с параметрами связи

Подготовка данных завершена.

2.EDA

Top

Посмотрим на основные характеристики качества связи

ВЫВОД:
Все переменные ,кроме Total (MB), имеют следующие особенности:

Посмотрим на распределение данных и оценим их соответствие нормальному распределению.

ВЫВОД:

В данных содержатся ответы на вопросы , которые не удалось распознать (классифицировать).
Данный вид ответа по шкале 1-10 отмечен как 0 (Q1_res).

Удалим нераспознанные данные из нашего анализа.

Посмотрим на соотношение категориальных переменных по первому вопросу Q1

Вывод:

Создадим списки ответов на второй вопрос Q2

Посмотрим на вторую часть опроса о качестве связи Q2, в которой пользователи, давшие отрицательную оценку называют причины.

ВЫВОД

С большим отрывом, почти с равнозначным результатом лидируют причины:

Это можно расценить , как самые существенные раздражители для пользователей

Выделим выбросы в наших данных.
Проведем разметку выбросов в данных по следующему принципу:

Построим график зависимости количественных величин с отмеченными выбросами.

ВЫВОД

Разметка выбросов выглядит достаточно корректной.
Попарное сравнение переменных на графиках не выявило сильно выраженных зависимостей.

Оценим корреляцию между переменными.

ВЫВОД

Выявлена только одна средняя зависимость (57.5%) между переменными Downlink (Kbps) и Video Download (Kbps).
Связь совершенно логична, так как обе величины характеризуют скорость загрузки информации пользователем.

Проверим как повлияет удаление выбросов из нашего набора данных на пропорции ответов пользователей.

Вывод:

Для снижения влияния выбросов на основные характеристики параметров связи убираем выбросы при дальнейшем анализе.

Посмотрим на распределения данных после удаления выбросов

ВЫВОД

Можно приступать к проверке статистически гипотез.

3.Проверка гипотез

Top

По результатам ответов на первый вопрос о качестве связи сформировалось два класса пользователей (Q1_cat):

В качестве тестовых статистик рассмотрим разницы средних величин и разницы медиан по каждому параметру связи.
Тестирование будем проводить методом bootstrap так как распределение параметров связи не относится к нормальным , а выбранный метод не треюует этого ограничения.

Проведем сравнение групп по средней величине.

В таблице приведены результаты тестирования, где a1 - группа "Все хорошо", а2 - группа "Проблемы".
ВЫВОДЫ

Проведем сравнение групп по медиане.

В таблице приведены результаты тестирования, гду a1 - группа "Все хорошо", а2 - группа "Проблемы".
ВЫВОДЫ

Сопоставим результаты тестирования по средним и медианам, и сравним распределения параметров по группам.

ВЫВОД

Приоритет при сравнении параметров качества связи по группам за медианой

Представим на графике значимые парамеры качества связи по влиянию на оценку пользователей

4.Оценка возможности классификации

Top

Предположим, что на основе значимых переменных(параметров связи) и ответов пользователей о качестве связи ("Проблемы", "Все хорошо") можно построить модель.
Модель будет определять классы пользователей по входным параметрам связи.
Оценим возможности классификации по входным параметрам, для этого построим графики показывающий соотношение переменой по классам.

ВЫВОД
Все рассмотренные переменные практически не имеют явного разделения по классу ответа и содержат слабую информацию для построения классификации

Проведем нормализацию переменных для получения профиля для каждого класса(Q1_cat)переменной.
Посторим график с профилем каждого класса пользователя.

ВЫВОД

5.Классификация

Top

Построим базовый классификатор, оценим качество модели по "субъективной" (по результатам опроса) разметке данных.
В качестве классификатора выберем Random Forest и его реализацию в Sklearn.

Проведем обучение и классификацию

ВЫВОД
Качество классификации не устраивает.
Разметка данных сделанная на основе субъективной оценки не соотвествует объективным характеристикам качества связи.

Новая разметка данных

Используя входные переменные качества связи и целевую переменную Q1cat(0"Проблемы", 1-"Все хорошо"), проведем переразметку данных.

Исходные данные разобьём на N частей с равным распределением объектов из 0-го и 1-го классов. На каждых (N-1) частях обучим несколько методов машинного обучения,разных по архитектуре и предсказывающих вероятность.

Исходные данные разбиваем на 5 частей с равномерным распределением примеров 0-го и 1-го классов.

Производим переразметку данных, итерируясь по каждой из 5-и частей выборки и используя для прогнозирования каждую из 5-и вышеобъявленных моделей.

Проведем исследование влияния измененеия порога вероятности при классификации.
Посмотрим на количественные изменения в самой классификации и изменения статистических параметров переменных в каждом классе в зависимости от порога.

Проведем оценку медианы переменных в связи с изменением порогов классификации

Посмотрим на графики изменения количества наблюдений по классам при изменении порога классификации

Вывод

Построим графики изменения медиан переменных при изменении порога классификации**

Вывод

Исследование связи старой (Q1_cat) и новой (Q1_new) классификации

ВЫВОД
Применяя термины оценки качества классификации опишем соотношения старой и новой классификации:

Разница в оценках старой и новой классификации лежит в разных подходах:

МЕДИАНЫ переменных по классам при пороге значимости классификации 0.5

Новая разметка данных

На основании старой(субъективной) и новой(объективной) классификации оценки качества связи пользователями проведем разметку пользователей по новым группам:

6.Анализ новой классификации пользователей

Top

Посмотрим на количество пользователей по новой классификации

ВЫВОД

Рассмотрим соотношение субъективного опроса с категориями пользователей.

ВЫВОД

Выделяется низкая объективность пользователей давших ответ "Все хорошо"

Рассмотрим соотношение объективного качества связи с категориями пользователей.

ВЫВОД

"Субъективное" и "объективное" распределение пользователей

Сравним профили по категориям пользователей

Эксперты_0 и Песcимисты_1

ВЫВОД

Пессимисты_1 и Оптимисты_2

ВЫВОД

Эксперты_0 и Оптимисты_2

ВЫВОД

Оптимисты_2 и Эксперты_3

ВЫВОД

Эксперты_0 и Эксперты_3

ВЫВОД

Пессимисты_1 и Эксперты_3

ВЫВОД

7.Модель классификации пользователей

Top

Построим модель по предсказанию вида пользователя по параметрам связи и его ответу на опрос
Модель реализуем на алгоритме Random Forest

Входные данные:

Посмотрим на значимость переменныхи

ВЫВОД

Новые данные модели

Посмотрим на значимость переменныхи

ВЫВОД

Общий подход на дополнительную разметку данных повысил возможности для обработки исходного массива данных.

8.Общие выводы и рекомендации

Top

  1. Для снижения количества некорректных ответов на вопросы, предалагается внедрить графический интерфейс в приложении на смартфоне, который визуально будет давать оценку параметров.
  2. По результатам первого опроса выявлено следующих три значимых параметра связи:
    • Downlink (Kbps);
    • Video Download (Kbps);
    • Web TCP RTT(ms).
  3. По результатам второго вопроса выявлены следующие три значимые причины недостатка качества связи:
    • "3.Плохое качество связи в зданиях, торговых центрах и тп";
    • "1.Недозвоны, обрывы при звонках";
    • "4.Медленный мобильный Интернет".
  4. Выявлено значительное расхождение в оценка пользователей качества связи и его реальных показателей. Оценка пользователей носит ярко субъективный характер.
  5. Предложен механизм дополнительной разметки данных, который позволяет уточнить категории копльзователей. Это дает возможности получать информацию отдельно от каждой группы пользователей.
  6. Новая классификация пользователей дает возможности , как в маркетинговых мероприятиях, так и более объективной оценке качества связи.
  7. Построена модель классификации, которая позволяет предсказывать категории пользователей по входным параметрам связи и их субъективной оценке качества связи.
  8. В ходе построения модели были выявлены следующие значимые параметры связи ( по мере убывания значимости):
    • Downlink (Kbps) ;
    • Web Download (Kbps);
    • Video Delay (ms);
    • Video Download (Kbps).
  9. Пункты 2, 3 и 8 определяют первоочередные направления деятельности по повышению доли положительного отклика от пользователей на качество связи.
  10. Дополнительного исследования требуют вопросы:
    • Причины лояльности пользователей категории "Оптимисты";
    • Причины нелояльности пользователей категории "Пессимисты";
    • Дополнительные показатели не технического характера, которые влияют на мнение пользователей (возможно соотношение цена-качество).

PS Сохранение набора размеченных данных для анализа